#coding=utf-8

#urllib模块提供了读取Web页面数据的接
import urllib.request
import os
#re模块主要包含了正则表达式
import re
# ------ 获取网页源代码的方法 ---
def getHtml(url):
    page = urllib.request.urlopen(url)
    html = page.read()
    return html

# ------ getHtml()内输入任意帖子的URL ------
html = getHtml("http://c.tieba.baidu.com/p/5213728158?pn=3")
# ------ 修改html对象内的字符编码为UTF-8 ------
html = html.decode('UTF-8')


# # ------ 获取帖子内所有图片地址的方法 ------
def getImg(html):
   # ------ 利用正则表达式匹配网页内容找到图片地址 ------
     reg = r'src="(.*?\.jpg)" size="'
     imgre = re.compile(reg);
     imglist = re.findall(imgre, html)
     return imglist
imgList = getImg(html)
#print(imgList)
imgName = 0
os.mkdir("D:/tieba/'+ingName+'")
for imgPath in imgList:
     # ------ 这里最好使用异常处理及多线程编程方式 ------

        f = open("D:/tieba/07/"+str(imgName)+".jpg", 'wb')
        f.write((urllib.request.urlopen(imgPath)).read())
        f.close()
        imgName += 1
print("All Done!")